Estadísticos de orden

En Estadística, el estadístico de orden kº es igual al k-ésimo valor más pequeño de una muestra estadística.^[1] Junto con los estadísticos de rango, los estadísticos de orden son una de las herramientas fundamentales de la estadística no paramétrica y de inferencia .

Hay casos especiales importantes de los estadísticos de orden: el mínimo y el máximo valor de una muestra, y (con algunas calificaciones discutidas a continuación) la mediana y otros cuantiles de muestra .

Cuando se utiliza la Teoría de Probabilidad para analizar estadísticos de orden de muestras aleatorias a partir de una distribución continua, la función de distribución acumulativa se usa para reducir el análisis al caso de estadísticas de orden de la distribución uniforme.

Notación y ejemplos

Por ejemplo, supongamos que se observan o son registrados 4 números, lo que resulta en una muestra de tamaño 4. Si los valores de la muestra son

6, 9, 3, 8,

que por lo general se denominan

x_{1}=6,\ \ x_{2}=9,\ \ x_{3}=3,\ \ x_{4}=8,\,

donde el subíndice i in $x_{i}$ simplemente indica el orden en el que se registraron las observaciones y se supone por lo general no son significativos. Un caso en el que el orden es significativo es cuando las observaciones son parte de una serie de tiempo.

Los estadísticas de orden se indican

x_{(1)}=3,\ \ x_{(2)}=6,\ \ x_{(3)}=8,\ \ x_{(4)}=9,\,

donde el subíndice (i) entre paréntesis indica el orden º del estadística de la muestra i.

El primer estadístico de orden (o estadístico de orden más pequeño) es siempre el mínimo de la muestra, es decir,

X_{(1)}=\min\{\,X_{1},\ldots ,X_{n}\,\}

donde, tras una convención común, se utilizan letras mayúsculas para hacer referencia a variables aleatorias, y las letras minúsculas (como arriba) para los valores reales observados.

Del mismo modo, para una muestra de tamaño n, el n-ésimo estadístico de orden n (o más grande estadístico de orden) es el máximo, es decir:

X_{(n)}=\max\{\,X_{1},\ldots ,X_{n}\,\}.

El rango de la muestra es la diferencia entre el máximo y el mínimo. Note que es una función de los estadísticos de orden:

{\rm {Range}}\{\,X_{1},\ldots ,X_{n}\,\}=X_{(n)}-X_{(1)}.

Un dato importante similar en el análisis exploratorio de los datos que se relaciona simplemente con las estadísticas de orden es el rango intercuartílico de la muestra.

La mediana de la muestra puede ser o puede no ser un estadístico, ya que hay un único elemento medio sólo cuando el número $n$ de observaciones es impar . Más precisamente, si $n = 2 m +1$ para algunos $m$ , entonces la mediana de la muestra es $X_{(m+1)}$ y así es un estadístico de orden. Por otro lado, cuando $n$ es incluso, $n = 2 m$ y hay dos valores medios, $X_{(m)}$ and $X_{(m+1)}$ , y la mediana de la muestra es una función de los dos (por lo general el promedio) y por lo tanto no es un estadística orden. Observaciones similares valen para todos los cuantiles de la muestra.

Análisis probabilístico

Teniendo en cuenta todas las variables aleatorias X₁, X₂..., X_n, los estadísticas de orden X₍₁₎, X₍₂₎, ..., X_(n) también son variables aleatorias, definidas por la clasificación de los valores ( Realizaciones ) de X₁, ..., X_n creciente.

Cuando las variables aleatorias X₁, X₂..., X_n forman una muestra de que son independientes e idénticamente distribuidos. Este es el caso tratado a continuación. En general, las variables aleatorias X₁, ..., X_n pueden surgir mediante un muestreo de más de una población. Entonces ellos son independientes , pero no necesariamente idénticamente distribuidas, y su distribución de probabilidad conjunta está dada por el teorema Bapat-Beg.

A partir de ahora, asumiremos que las variables aleatorias que se consideran son continuos y, cuando sea conveniente, también vamos a asumir que tienen una función de densidad de probabilidad (es decir, que son absolutamente continua). Las peculiaridades del análisis de las distribuciones de masas para la asignación de puntos (en particular, las distribuciones discretas) se discuten al final.

Distribuciones de probabilidad de estadísticas de orden

En esta sección mostramos que las estadísticas de orden de la distribución uniforme en el intervalo unidad tienen distribuciones marginales pertenecientes a la distribución Beta familia. También damos un método sencillo para derivar la distribución conjunta de cualquier número de estadísticas de orden y, finalmente, traducir estos resultados para distribuciones continuas arbitrarias utilizando el CDF .

Suponemos que toda esta sección $X_{1},X_{2},\ldots ,X_{n}$ es una muestra aleatoria extraída de una distribución continua con cdf $F_{X}$ . Denotando $U_{i}=F_{X}(X_{i})$ se obtiene la muestra aleatoria correspondiente $U_{1},\ldots ,U_{n}$ de la norma de distribución uniforme. Tenga en cuenta que las estadísticas de orden también satisfacen $U_{(i)}=F_{X}(X_{(i)})$ .

Estadísticas de orden de la muestra de una distribución uniforme

La probabilidad de la estadística para $U_{(k)}$ caer en el intervalo $[u,\ u+du]$ e igual a:^[2]

{n! \over (k-1)!(n-k)!}u^{k-1}(1-u)^{n-k}\,du+O(du^{2}),

es decir, el k-ésimo orden estadística de la distribución uniforme es una Beta variable aleatoria.^[2]^[3]

U_{(k)}\sim B(k,n+1-k).

La prueba de estos estados es el siguiente. Para $U_{(k)}$ a ser de entre u y u + du, es necesario que exactamente k - 1 elementos de la muestra son más pequeños que U, y que al menos uno es entre U y U + D U. La probabilidad de que más de uno es en este último intervalo es ya O (du ^ 2) , Así que tenemos que calcular la probabilidad de que exactamente k - 1, 1 y n - k observaciones caen en los intervalos $(0,u)$ , $(u,u+du)$ y $(u+du,1)$ respectivamente. Esto es igual a (consulte la distribución multinomial para más detalles)

${n! \over (k-1)!(n-k)!}u^{k-1}\cdot du\cdot (1-u-du)^{n-k}$

y el resultado sigue. La media de esta distribución es k / (n + 1).

La distribución conjunta de las estadísticas de orden de la distribución uniforme

Del mismo modo, para i <j, la función de densidad de probabilidad conjunta de las dos estadísticas de orden de U_(i) < U_(j) puede ser demostrado ser

$f_{U_{(i)},U_{(j)}}(u,v)\,du\,dv=n!{u^{i-1} \over (i-1)!}{(v-u)^{j-i-1} \over (j-i-1)!}{(1-v)^{n-j} \over (n-j)!}\,du\,dv$

que es (hasta términos de orden superior $O(du\,dv)$ ) La probabilidad de que i − 1, 1, j − 1 − i, 1 and n − j elementos de la muestra j caigo en los intervalos $(0,u)$ , $(u,u+du)$ , $(u+du,v)$ , $(v,v+dv)$ , $(v+dv,1)$ , respectivamente

Una de las razones en una forma totalmente análoga para derivar las distribuciones de conjuntos de orden superior. Quizás sorprendentemente, la densidad conjunta de los estadísticos de orden de tanaño n resulta ser constante:

$f_{U_{(1)},U_{(2)},\ldots ,U_{(n)}}(u_{1},u_{2},\ldots ,u_{n})\,du_{1}\cdots du_{n}=n!\,du_{1}\cdots du_{n}.$

Una manera de entender esto es que la muestra no ordenada tiene densidad constante igual a 1, y que hay n! diferentes permutaciones de la muestra correspondiente a la misma secuencia de estadísticas de orden. Esto está relacionado con el hecho de que 1 / n! es el volumen de la región $0<u_{1}<\cdots <u_{n}<1$ .

Estadísticas de orden de la muestra de una distribución Erlang

La transformada de Laplace de estadísticas de orden de la muestra a partir de una distribución de Erlang a través de un método de recuento de ruta.^[4]

La distribución de los estadísticos de orden en el caso general

Si una variable posee una distribución absolutamente continua F_X, entonces admite una densidad de probabilidad tal que $dF_{X}(x)=f_{X}(x)\,dx$ , y en las fórmulas anteriores pueden practicarse las substituciones:

$u=F_{X}(x)$ , $\qquad$ $du=f_{X}(x)\,dx$

para derivar las funciones de densidad de probabilidad (FDPs) para los estadísticos de orden de una muestra de tamaño n tomada de la distribución de X:

$f_{X_{(k)}}(x)={\frac {n!}{(k-1)!(n-k)!}}[F_{X}(x)]^{k-1}[1-F_{X}(x)]^{n-k}f_{X}(x)$

$f_{X_{(j)},X_{(k)}}(x,y)={\frac {n!}{(j-1)!(k-j-1)!(n-k)!}}[F_{X}(x)]^{j-1}[F_{X}(y)-F_{X}(x)]^{k-1-j}[1-F_{X}(y)]^{n-k}f_{X}(x)f_{X}(y)$ donde $x\leq y$

$f_{X_{(1)},\ldots ,X_{(n)}}(x_{1},\ldots ,x_{n})=n!f_{X}(x_{1})\cdots f_{X}(x_{n})$ donde $x_{1}\leq x_{2}\leq \dots \leq x_{n}.$

Aplicaciones

Dentro de las aplicaciones más interesantes, se puede destacar el artículo ^[5] donde se cuantifica el riesgo de la cola derecha de una variable aleatoria a través de la esperanza de la n-i reclamaciones más grandes dentro de una cartera de negocio.

Referencias

↑ David, H. A.; Nagaraja, H. N. (2003). Order Statistics. Wiley Series in Probability and Statistics. doi:10.1002/0471722162. ISBN 9780471722168. edit
↑ ^a ^b Gentle, James E. (2009), Computational Statistics, Springer, p. 63, ISBN 9780387981444 ..
↑ Jones, M. C. (2009), «Kumaraswamy’s distribution: A beta-type distribution with some tractability advantages», Statistical Methodology 6 (1): 70-81, doi:10.1016/j.stamet.2008.04.001, «As is well known, the beta distribution is the distribution of the m’th order statistic from a random sample of size n from the uniform distribution (on (0,1)).» .
↑ Hlynka, M.; Brill, P. H.; Horn, W. (2010). "A method for obtaining Laplace transforms of order statistics of Erlang random variables". Statistics & Probability Letters 80: 9. doi:10.1016/j.spl.2009.09.006.
↑ Castaño-Martinez, A.; Pigueiras, G.; Sordo, M.A. (2019). "On a family of risk measures based on largest claims". Insurance: Mathematics and Economics 86. https://doi.org/10.1016/j.insmatheco.2019.02.003

Datos: Q1767128

[1] David, H. A.; Nagaraja, H. N. (2003). Order Statistics. Wiley Series in Probability and Statistics. doi:10.1002/0471722162. ISBN 9780471722168. edit

[gentle-2] Gentle, James E. (2009), Computational Statistics, Springer, p. 63, ISBN 9780387981444 ..

[3] Jones, M. C. (2009), «Kumaraswamy’s distribution: A beta-type distribution with some tractability advantages», Statistical Methodology 6 (1): 70-81, doi:10.1016/j.stamet.2008.04.001, «As is well known, the beta distribution is the distribution of the m’th order statistic from a random sample of size n from the uniform distribution (on (0,1)).» .

[4] Hlynka, M.; Brill, P. H.; Horn, W. (2010). "A method for obtaining Laplace transforms of order statistics of Erlang random variables". Statistics & Probability Letters 80: 9. doi:10.1016/j.spl.2009.09.006.

[5] Castaño-Martinez, A.; Pigueiras, G.; Sordo, M.A. (2019). "On a family of risk measures based on largest claims". Insurance: Mathematics and Economics 86. https://doi.org/10.1016/j.insmatheco.2019.02.003

[1]

[2]

[3]

[4]

[5]